Phi-3.5(MoE、Mini 和 Vision):微软超强小模型上线!(击败 Llama-3.1、Mistral)
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
微软在其模型系列中推出了几个新模型,这些模型编号为3.5,此次推出了三个新模型,第一个是Phi 3.5 Vision,接着是Phi 3.5 Mini,最后是Phi 3.5 Mixture of Experts(专家混合模型)。
其中最大的模型是专家混合模型,它是一个16×3.8B模型,拥有6.6B活动激活参数,而Phi 3.5 Mini是一个3.8B参数的模型,Phi 3.5 Vision是一个4.2B参数的模型。
令人兴奋的是,这些模型都很小,任何计算机都可以运行它们,它们都有大约128K的上下文限制,这也很不错。让我们从大模型到小模型开始介绍这些模型。
首先介绍的是Phi 3.5MOE,这个模型是一个专家混合模型。
你可以把专家混合模型想象成多个较小的专家模型或特定领域微调的模型组合在一起,路由器会识别你的提示,并将其引导到相应的专家模型中。这并不是确切的描述,但大致相似。
无论如何,它是一个16×3.8B参数的模型,这已经很高了,但如果与其他专家混合模型相比,并不算特别高。
现在来看看基准测试数据,这个模型的表现与Nemo或Llama 3.1 8B相当,他们就是这样对比的。
在Arena Hard测试中,它击败了Llama 3.1 8B,但没有击败Mistral、Nemo、Gemini 29B或GPT-4 Omini。
然而在Big Bench Hard测试中,它以较大优势击败了其他所有模型,包括Gemini 1.5 Flash,并且非常接近GPT-4 Omini的表现,这相当不错。
在MMLU测试中,它也击败了其他所有模型,甚至超过了GPT-4 Omini,这也很酷。
在MMLU Pro测试中,它也击败了除Gemini 1.5 Flash和GPT-4 Omini之外的所有模型。
在推理基准测试、多语言基准测试和数学基准测试中,它表现相似。
在HumanEval测试中,它的表现也差不多,虽然没能击败Gemini 1.5 Flash和GPT-4 Omini,但击败了其他所有模型。
在MBPP测试中,它击败了除GPT-4 Omini以外的所有模型,因此这很不错。
你可以说,至少在基准测试中,它可以与Nemo或Llama 3.1 8B相媲美,这很不错。
现在来看Phi 3.5 Mini模型,Phi 3.5 Mini是一个3.8亿参数的模型,非常小,就像之前的Phi 3模型一样。
我们来看它的基准测试,在基准测试中,它在所有类别中通常比之前的模型更好,并且与Llama 3.1 8B相当或略低。
考虑到它的大小只有原模型的一半,这相当不错。
接下来是Phi 3.5 Vision模型,它基本上是带有视觉功能的Phi 3.5 Mini模型,这是一个4.2B参数的模型,其基准测试与Phi 3.5 Mini相似,
但它还有视觉基准测试,在这些测试中表现也非常好。
在几乎所有基准测试中,它都能与Gemini Flash相媲美,这是一个体积小但功能强大的视觉模型,非常棒。
开源视觉模型一直以来都很匮乏,现在看到如此小巧且功能强大的视觉模型出现,真的很高兴。
现在说说如何使用这些模型,3.8B Mini模型可以在Ollama上使用,
但其他模型目前还不可用,因为它们的架构略有不同,需要先在Llama cpp上获得支持以添加兼容性。
无论如何,你可以在Nvidia NMS上免费试用这些模型,所以可以从那里试一试。
对于文本模型,我将尝试这13个问题,我不会使用这些文本问题测试视觉模型,因为它是带有视觉功能的Mini模型,而且我也找不到任何好的演示网站来试用它,而且它在Llama上也不可用。
好了,让我们开始吧。
第一个问题是,哪个国家的首都名字以Leah结尾?我指的是国家名字,答案应该是Canberra或任何与Leah押韵的国家首都名字。让我们发送问题并查看答案,顺便说一下,左边的是Mini,右边是E模型(MOE)。
这是答案,Mini模型没有正确回答,而E模型正确回答了。因此,Mini模型记为失败,E模型记为通过。
接下来一个问题是,哪个数字与我们用来描述高大植物的词押韵?答案应该是Three(3)。让我们发送问题并查看答案。这里是答案,Mini模型不正确,但E模型正确。所以我们将Mini记为失败,E模型记为通过。
下一个问题是,John有三盒铅笔,每盒有12支铅笔,John一共有多少支铅笔?答案应该是36。让我们发送并查看答案。这里是答案,两个模型都给出了正确的答案,所以这次两者都通过了。
下一个问题是,Lucy有的糖果数量是Mike的两倍。如果Mike有7颗糖果,Lucy有多少颗糖果?答案应该是14。让我们发送并查看答案。答案看起来都正确,所以这次两者也都通过了。
下一个问题是,数字337是质数吗?答案应该是“是”。让我们发送并查看答案。Mini模型不正确,而E模型正确,因此Mini模型记为失败,E模型记为通过。
接下来一个问题是,我有两个苹果,然后又买了两个。我用其中两个苹果烤了个派,吃掉了一半派后,我还剩多少个苹果?答案应该是两个。
让我们发送并查看答案。Mini模型不正确,而E模型正确,因此Mini模型记为失败,E模型记为通过。
接下来一个问题是,Sally是个女孩,她有三个兄弟,每个兄弟都有同样的两个姐妹。Sally有几个姐妹?答案应该是一个。让我们发送并查看答案。Mini模型再次不正确,而E模型正确,因此我们将Mini记为失败,E模型记为通过。
下一个问题是,如果一个正六边形的短对角线是64,那么它的长对角线是多少?答案应该是73.9。让我们发送并查看结果。这里是答案,两个模型都没有正确回答这个问题,所以这次两者都记为失败。
接下来的几个问题是编程问题。第一个问题是,创建一个HTML页面,其中有一个按钮,当你点击它时会放出彩带。你可以使用CSS和JS。让我们发送并查看答案。这里是两个模型生成的代码。
首先预览Mini模型的版本,这看起来不像彩带,所以这是失败。现在预览E模型的版本,它完全不起作用,因此两个模型都失败了。
接下来一个问题是,创建一个Python程序,根据用户输入打印接下来的几个闰年。让我们发送并查看答案。这里是两个模型生成的代码。运行Mini模型的代码,它工作正常。再运行E模型的代码,它也工作正常,因此两个模型都通过了。
接下来一个问题是,生成一个蝴蝶的SVG代码。让我们发送并查看答案。这里是代码。首先预览E模型的代码,这看起来不像蝴蝶,所以这是失败。现在预览Mini模型的代码,它也不像蝴蝶,所以这次两个模型都失败了。
接下来一个问题是,为一家AI公司创建一个登陆页面。页面应包含四个部分:标题、横幅、功能和联系我们。确保页面看起来时尚现代。你可以使用HTML、CSS和JS。让我们发送并查看答案。
这里是两个模型生成的代码。首先预览Mini模型生成的页面,这看起来像是很古老的设计,所以这是失败。现在预览E模型的生成页面,看起来不错,所以这是通过。
最后一个问题是,在Python中编写一个在终端中运行的生命游戏。让我们发送并查看答案。这里是两个模型生成的代码。运行Mini模型的代码,它工作得很好。再运行E模型的代码,它看起来也不错,因此两者都通过了。
这就是最终结果,如你所见,E模型只在三个问题上失败了,而Mini模型在九个问题上失败了。
不过,考虑到Mini模型比E模型小16倍,这样的表现也可以接受,但E模型的表现非常好,几乎与高端模型相当,这真的令人难以置信。
而且,它只有不到7B的激活参数,所以在本地运行也不错,这也非常棒。我认为它很快就会在Ollama上得到支持。
总的来说,这个模型真的很酷,如果你喜欢这系列文章请以 点赞 / 分享 /在看 的方式告诉我,以便我用来评估创作方向。
🌟希望这篇文章对你有帮助,感谢阅读!
[1] huggingface:https://huggingface.co/microsoft/Phi-3.5-MoE-instruct
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~